- すべて
- 画像・動画
並べ替え:新着順
(日本語において特に)としたのが、もともとツイッターが英語圏発祥なのでスペースでの分かち書きの言語向けの検索アルゴリズムなので、日本語のような分かち書きしない言語では形態素解析が比較的難しい言語との相性が悪いため、特に検索性能が悪いと考えられます。
返信先:@KochoDeska検索機能も凝り始めると難しいですからね… DBをただLIKE句で舐めれば良いってもんでもないでしょうし、全文検索エンジンとか入れるってなると、それはそれで大変そうですし…w 日本語の分かち書きもそうだし、アイテム名に記号入ってる点もネックになりそうですしね。
返信先:@komikanyuru他1人私はほぼ独学なのですが… 国立国語院には一語で出ていますが、NAVERで検索すると分ち書きされてる方が多い印象です stdict.korean.go.kr/m/main/main.do 부리다 と 치다の違いが気になります ^^ pic.twitter.com/pB5Q4AhAf4
wikipediaの全データと、その本文をNEologdで分かち書きしたデータをDBにぶち込んでみた。 一応そのデータを元に、word2vecコーパスを作ったから、類似単語検索とかやってみる。 pic.twitter.com/0zQo3633KH
「点訳ナビゲーター」をご存知ですか。単語の分かち書きで迷った際に同サイトの検索項目に単語を入力、検索すると、分かち書きが表示されます。『点字表記辞典』が引けない時や単語が掲載されていない時、ふとした調べもの等にとても便利なサイトです😁 「点訳ナビゲーター」→ten-navi.naiiv.net pic.twitter.com/krZGrtFTYl
自分で後から検索しやすいようにツイート時にも気をつけてるんだけど、Twitterの単語判定機能は日本語のように分かち書きをしない言語にほとんど対応していないっぽい 例えばpopularをミュートしたときにunpopularをミュートしないための設定なんだろうけど 形態素解析って難しい